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Методика объяснения нейросетевого вывода. 
О подходе к решению проблемы дефицита 
обучающих примеров 


Предложена и исследована методика объяснения нейросетевых решений. Рассмотрен подход к решению 
проблемы дефицита обучающих примеров на примере предсказания роста биржевых котировок. 


Введение 


Целью данной статьи является решение двух актуальных проблем нейроинфор- 
матики: объяснения решений нейронной сети и решения проблемы недостатка обу- 
чающих примеров при операции нейросетевого предсказания. 

Нейронные сети (НС) в отличие от экспертных систем (ЭС) позволяют одновре- 
менно анализировать множество параметров и не требуют при этом явной формализации 
правил вывода. В то же время технология нейронных сетей не представляет возможным 
проследить всю цепочку вывода (т.к. нейросетевое распознавание является аналогом опе- 
рации сравнения с эталоном), но и логику принятия итогового решения как такового в 
итоге. В связи с этим объяснение решений нейронной сети является актуальной научной 
проблемой нейроинформатики. В статье предлагается подход к ее решению. 

Наряду с этим в вопросе нейросетевого предсказания нередко «слабым звеном» 
выступает фактор дефицита примеров для обучения нейронной сети. Рассматривается и 
исследуется методика генерации искусственных примеров, получаемых из уже имеющих- 
ся применением к ним различного рода преобразований на примере предсказания 
биржевых котировок. 


1. Извлечение правил из нейронных сетей 


Пусть А обозначает набор из М свойств А1,А2...АМ, а {а} — множество возможных 
значений, которое может принимать свойство А1. Обозначим через С множество классов 
с1,с2...сМ. Для обучающей выборки известны ассоциированные пары векторов входных и 
выходных значений (а1...ат,сК), где сКе С. Алгоритм извлечения разделяющих правил 
включает три этапа: 

1. Обучение нейронной сети. На этом данном этапе многослойный перцептрон 
обучается до получения требуемого уровня качества распознавания. 

2. Прореживание нейронной сети. Обученная нейронная сеть содержит все возмож- 
ные связи между входными нейронами и нейронами скрытого слоя, а также между 
последними и выходными нейронами. Полное число этих связей обычно столь велико, 
что из анализа их значений невозможно извлечь обозримые для пользователя классифи- 
цирующие правила. Прореживание заключается в удалении излишних связей и нейронов, 
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не приводящем к увеличению ошибки классификации сетью. Результирующая сеть обыч- 
но содержит немного нейронов и связей между ними и ее функционирование поддается 
исследованию. 

3. Извлечение правил. На этом этапе из прореженной нейронной сети извлекаются 
правила, имеющие форму «если (а1 © а1) и (а2 © а?) и... и (ап ® ап), то», где — константы, 
© — оператор отношения (=, >, <, <). Предполагается, что эти правила достаточно 
очевидны при проверке и легко применяются к БД больших размерностей. 


1.1. Обучение нейронной сети 


Предположим, что обучающий набор данных 7, необходимо разбить на два класса 
А иВ. В этом случае сеть должна содержать М входных и 2 выходных нейрона. Каждому 
из классов будут соответствовать следующие активности выходных нейронов (1,0) и (0,1). 
В качестве функции активации промежуточных нейронов используется гиперболический 
тангенс, так что их состояния изменяются в интервале [-1,1]. В то же время функцией 
активации выходных нейронов является функция Ферми (состояния в интервале [0,1]. 


Хх КА 
Обозначим через (),,(Е=1,2) состояния выходных нейронов при предъявлении на вход 


сети вектора признаков А-го объекта х’. Будем считать, что этот объект правильно 
классифицирован сетью, если 


А К < 
ПАКО, в =т, 

К К К А К 
где: 1 =1|, если хе Аиф =1если х ЕВ, а0<п<0,5. В остальных случаях 1 =0. 

Минимизируемая функция ошибки должна не только направлять процесс обучения 
в сторону правильной классификации всех объектов обучающей выборки, но и делать 
малыми значения многих связей в сети, чтобы облегчить процесс их прореживания. 

Е=Е-+=ЁЕ,, 

где 


==>. >. 1юво; +-0: 08-0; )) 


функция взаимной энтропии, минимизация которой происходит быстрее, чем миними- 
зация среднеквадратичной ошибки. и функция: 


№ 2 (и у? 
ВУ, 
1 т. 1+ (и9)° 
Здесь №, — число нейронов в скрытом слое, у’, — величина связи между /-м входным и /-м 


скрытым нейронами, и”, — вес связи между /-м скрытым и #-м выходным нейронами [1]. 
Использование регуляризирующего члена Е1 приводит к дифференциации весов по 


величинам, уменьшая большинство, но сохраняя значения некоторых из них. Обучение 
сети производится методом обратного распространения ошибки. 
1.2. Прореживание нейронной сети 

Полное число связей в обученной сети составляет (№М-+ М, )№,. Можно показать, 
что связь между входным и промежуточным нейроном у”, можно удалить без снижения 
точности классификации сетью при выполнении условий шах, | ии , <+п,и 
7, +7, < 0,5. Аналогичным образом, удаление связи у’, не влияет на качество классифи- 


кации, если и”, < +7,. 
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1.3. Извлечение правил 


1. Выбирается значение параметра = е (0,1) ‚ управляющего числом кластеров ак- 
тивности нейрона скрытого слоя. Пусть Й, — активность этого нейрона при предъявлении 
сети первого вектора обучающего набора. Положим число кластеров №„„„ =1, положе- 
(Пй,,соипК1) =1,5ит( =й. 


2. Для всех векторов выборки обучающих примеров А =1,...К 


[и 


ние кластера 4 


сия! 


— определяется активность нейрона скрытого слоя Й, 
— если существует индекс / , такой что 


|й ий рн (Л = И |й В А (Л И 


1,..„М ош} 
|й =4А (0) 5, 
то 
соипЦ 7) = соипК ) + 5ит(М ‚= 5итСМ „)-+Й, 
иначе 
Е = Аи Мои 
сои (М) =Ь5ит( М.) =. 


3. Заменить А.„, на среднее значение активаций нейрона, объединенных в один и 


сия 


тот же кластер: 


Аня (Л = 5ит( 7) / соипК (7), Л 9..9 А а : 
4. Проверить точность классификации объектов сетью при замене истинных 
значений активации нейрона скрытого слоя на А. (7). 


5. Если точность классификации оказалась ниже заданного значения, то уменьшить 
значение = и вернуться к шагу 1. 


2. Методика решения проблемы дефицита 
обучающих примеров 


Рассмотрим предлагаемую методику на конкретном примере нейросетевого пред- 
сказания биржевых котировок. 

Предположим, что имеется кривая роста котировок за предыдущий период (бан- 
ковский день, сессию и т.д.). Соответствие данных по осям выступает как выборка 
обучающих примеров, однако их количество недостаточно для качественного обучения 
нейронной сети. Используя опыт биржевых экспертов, можно заключить, что в основном 
игроки обращают внимание на форму кривой цен, а не на конкретные значения по осям. 
Поэтому если немного «растянуть» по оси котировок весь временной ряд, то полученный 
в результате такого преобразования ряд также можно использовать для обучения наряду с 
исходным. Таким образом, увеличивается число примеров за счет использования априор- 
ной информации, вытекающей из психологических особенностей восприятия временных 
рядов участниками рынка. 

Еще один способ решения упомянутой выше проблемы в области предсказания 
состояния рынка — это так называемое использование скрытой симметрии в валютной 
торговле. Смысл этой симметрии в том, что валютные котировки могут рассматриваться с 
двух точек зрения, например как ряд ОМХ или как ряд $/0ОМ. Возрастание одного из них 
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соответствует уменьшению другого. Это свойство можно использовать для удвоения числа 
примеров: каждому примеру вида (Х, „.1,....Х,/,Х,)-— Х „можно добавить его симмет- 


Га 


ричный аналог(-Х’, у.1ь...-ЛА,›-Х,) >-Х,.. Эксперименты по нейросетевому пред- 


сказанию показали, что для основных валютных рынков учет симметрии поднимает 
норму прибыли примерно в два раза, конкретно — с 5 % годовых до 10 % годовых, с учетом 
реальных транзакционных издержек [2]. 


2.1. Измерение качества предсказаний 


Хотя предсказание финансовых рядов и сводится к задаче аппроксимации много- 
мерной функции, оно имеет свои особенности, как при формировании входов, так и при 
выборе выходов нейросети. Первый аспект, касающийся входов, мы уже обсудили. 
Теперь коснемся особенностей выбора выходных переменных. Но прежде ответим на 
главный вопрос: как измерить качество финансовых предсказаний. Это поможет опреде- 
лить наилучшую стратегию обучения нейросети. 


2.2. Связь предсказуемости с нормой прибыли 


Особенностью предсказания финансовых временных рядов является стремление к 
получению максимальной прибыли, а не минимизации среднеквадратичного отклонения, 
как это принято в случае аппроксимации функций. 

В простейшем случае ежедневной торговли прибыль зависит от верно уга- 
данного знака изменения котировки. Поэтому нейросеть нужно ориентировать именно 
на точность угадывания знака, а не самого значения. Найдем, как связана норма при- 
были с точностью определения знака в простейшей постановке ежедневного вхож- 
дения в рынок [2]. 

Обозначим на момент {: полный капитал игрока К,, относительное изменение 


котировки х, = АС, / С, ‚ав качестве выхода сети возьмем степень ее уверенности в знаке 
этого изменения у, Е [-11]. Такая сеть с выходной нелинейностью вида у ={°(@) обу- 


чается предсказывать знак изменения и выдает прогноз знака с амплитудой, пропор- 
циональной его вероятности. Тогда возрастание капитала на шаге 1 примет вид: 


К, = К, 5 [к [(х,› У, > 
где д — доля капитала, «в игре». Выигрыш за все время игры: 


1 
К, =К, ехр(` ШП +х, (,)]) 
Ги 
нам и предстоит максимизировать, выбрав оптимальный размер ставок с’. Пусть в сред- 


1 
нем игрок угадывает долю р= 5* = знаков и соответственно ошибается с вероят- 


1 
ностью а = > = . Тогда логарифм нормы прибыли: 


(ш(К,/Ко)) = Крва+ |5) +аша- |6), 
а следовательно и сама прибыль, будет максимальным при значении 
5=0-9{) 


и составит в среднем: 
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(и(К,/К,))=Кр-а)” ры ВОИ Е 


Здесь мы ввели коэффициент & = (у 7 та <1. Например, для Гауссова распре- 


деления &@ = 0,8. 
В итоге получаем следующую оценку нормы прибыли при заданной величине 
предсказуемости знака /, выраженной в битах: 


о ай 
К, = К: 20, 
То есть для ряда с предсказуемостью Тв принципе возможно удвоить капитал за 


1 = 1/(@Г) вхождений в рынок. Таким образом, даже небольшая предсказуемость знака 


изменения котировок способна обеспечить весьма заметную норму прибыли. 

Подчеркнем, что оптимальная норма прибыли требует достаточно аккуратной игры, 
когда при каждом вхождении в рынок игрок рискует строго определенной долей 
капитала: 


(^К)/К = 5(||) = (р- (ху /(х?) = 2а= =1.6&, 


где АК - типичная при данной ситуации рынка (|х | величина выигрыша или проиг- 


рыша [2]. Как меньшие, так и большие значения ставок уменышают прибыль. Причем 
чересчур рискованная игра может привести к проигрышу при любой предсказательной 
способности [3]. 


2.3. Выбор функционала ошибки 


Если принять, что целью предсказаний финансовых временных рядов является мак- 
симизация прибыли, логично настраивать нейросеть именно на этот конечный результат. 
Например, при игре по описанной выше схеме для обучения нейросети можно выбрать 
следующую функцию ошибки обучения, усредненную по всем примерам из обучающей 
выборки: 


Е = —(шП 5 х,б, зеп(у,)]) | 


Здесь доля капитала в игре введена в качестве дополнительного выхода сети, наст- 
раиваемого в процессе обучения. При таком подходе первый нейрон, у,, с функцией 
активации / = (0) даст вероятность возрастания или убывания курса, в то время как 
второй выход сети д, даст рекомендованную долю капитала в игре на данном шаге. 


Поскольку, однако, в соответствии с предыдущим анализом, эта доля должна быть 
пропорциональна степени уверенности предсказания, можно заменить два выхода сети — 


ОДНИМ, ПОЛОЖИВ 0, Его № ‚ И ограничиться оптимизацией всего одного глобального пара- 


метра д , минимизирующего ошибку: 
Е = -(ш[1+ 6х, у,] . 


Тем самым, появляется возможность регулировать ставку в соответствии с уровнем 
риска, предсказываемым сетью. Игра с переменными ставками приносит большую 
прибыль, чем игра с фиксированными ставками. Действительно, если зафиксировать 
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ставку, определив ее по средней предсказуемости, то скорость роста капитала будет 


2 
пропорциональна (= ) › тогда как если определять оптимальную ставку на каждом шаге, 


то — пропорциональна (= > [Е и 


Приведенные выше примеры показывают, как важно уметь правильно оценить ка- 
чество предсказания и как можно использовать эту оценку для увеличения прибыльности 
от одних и тех же предсказаний. 

На следующем этапе можно пойти еще дальше и вместо среднего использовать 
взвешенное мнение нескольких нейронных сетей одновременно. При этом веса следует 
выбирать адаптивно, максимизируя предсказательную способность группы на обучаю- 
щей выборке. В итоге хуже обученные сети из группы (комитета нейронных сетей) 
вносят меньший вклад и не портят предсказания). 

Приведенные подходы планируется программно реализовать при создании универ- 
сальной системы поддержки принятия решений операторов сложных технических 
объектов критических областей деятельности. Апробация системы будет проводиться 
на примере системы оперативного обнаружения внутрисменных простоев добываю- 
щего фонда скважин нефтегазодобывающих предприятий Западной Сибири. 
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Методика пояснення нейромережного висновку. Про шдхщ до розв?язання проблеми дефщиту 
навчальних приклад 

Запропонована 1 дослджена методика пояснення нейромережних розв’язюв. Розглянутий шдхд до 
розв’язання проблеми дефщиту навчальних прикладв за зразком завбачення зростання бржевих котирувань. 
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